首页> 外文OA文献 >Comparing Dataset Characteristics that Favor the Apriori, Eclat or FP-Growth Frequent Itemset Mining Algorithms
【2h】

Comparing Dataset Characteristics that Favor the Apriori, Eclat or FP-Growth Frequent Itemset Mining Algorithms

机译:比较有利于apriori,Eclat或者数据集的数据集特征   Fp-Growth频繁项​​集挖掘算法

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Frequent itemset mining is a popular data mining technique. Apriori, Eclat,and FP-Growth are among the most common algorithms for frequent itemset mining.Considerable research has been performed to compare the relative performancebetween these three algorithms, by evaluating the scalability of each algorithmas the dataset size increases. While scalability as data size increases isimportant, previous papers have not examined the performance impact ofsimilarly sized datasets that contain different itemset characteristics. Thispaper explores the effects that two dataset characteristics can have on theperformance of these three frequent itemset algorithms. To perform thisempirical analysis, a dataset generator is created to measure the effects offrequent item density and the maximum transaction size on performance. Thegenerated datasets contain the same number of rows. This provides some insightinto dataset characteristics that are conducive to each algorithm. The resultsof this paper's research demonstrate Eclat and FP-Growth both handle increasesin maximum transaction size and frequent itemset density considerably betterthan the Apriori algorithm. This paper explores the effects that two dataset characteristics can have onthe performance of these three frequent itemset algorithms. To perform thisempirical analysis, a dataset generator is created to measure the effects offrequent item density and the maximum transaction size on performance. Thegenerated datasets contain the same number of rows. This provides some insightinto dataset characteristics that are conducive to each algorithm. The resultsof this paper's research demonstrate Eclat and FP-Growth both handle increasesin maximum transaction size and frequent itemset density considerably betterthan the Apriori algorithm.
机译:频繁项集挖掘是一种流行的数据挖掘技术。 Apriori,Eclat和FP-Growth是频繁项集挖掘的最常用算法。通过评估随数据集大小增加的每种算法的可伸缩性,已经进行了相当多的研究来比较这三种算法之间的相对性能。尽管随着数据大小的增加而具有可伸缩性很重要,但是以前的论文并未研究包含不同项集特征的大小相似的数据集对性能的影响。本文探讨了两个数据集特征可能对这三种频繁项集算法的性能产生的影响。为了执行此经验分析,创建了一个数据集生成器以测量非经常性项目密度和最大交易规模对绩效的影响。生成的数据集包含相同数量的行。这提供了有助于了解每种算法的数据集特征的一些信息。本文的研究结果表明,Eclat和FP-Growth都可以处理最大交易量的增加和频繁项集的密度大大优于Apriori算法。本文探讨了两个数据集特征可能对这三种频繁项集算法的性能产生的影响。为了执行此经验分析,创建了一个数据集生成器以测量非经常性项目密度和最大交易规模对绩效的影响。生成的数据集包含相同数量的行。这提供了有助于了解每种算法的数据集特征的一些信息。本文的研究结果表明,Eclat和FP-Growth都可以处理最大交易量的增加和频繁项集的密度大大优于Apriori算法。

著录项

  • 作者

    Heaton, Jeff;

  • 作者单位
  • 年度 2017
  • 总页数
  • 原文格式 PDF
  • 正文语种
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号